上期我們講到了大數(shù)據(jù)的含義,今天我們一起探討一下大數(shù)據(jù)到底有多大。
我們傳統(tǒng)的個(gè)人電腦,處理的數(shù)據(jù),是GB/TB級(jí)別。例如,我們的硬盤,現(xiàn)在通常是1TB/2TB/4TB的容量。
TB、GB、MB、KB的關(guān)系,大家應(yīng)該都很熟悉了:
1 KB = 1024 B (KB - kilobyte)
1 MB = 1024 KB (MB - megabyte)
1 GB = 1024 MB (GB - gigabyte)
1 TB = 1024 GB (TB - terabyte)
而大數(shù)據(jù)是什么級(jí)別呢?PB/EB級(jí)別。
大部分人都沒聽過。其實(shí)也就是繼續(xù)翻1024倍:
1 PB = 1024 TB (PB - petabyte)
1 EB = 1024 PB (EB - exabyte)
只是看這幾個(gè)字母的話,貌似不是很直觀。我來舉個(gè)例子吧。
1TB,只需要一塊硬盤可以存儲(chǔ)。容量大約是20萬張照片或20萬首MP3音樂,或者是631903部《紅樓夢》小說。
普通硬盤
1PB,需要大約2個(gè)機(jī)柜的存儲(chǔ)設(shè)備。容量大約是2億張照片或2億首MP3音樂。如果一個(gè)人不停地聽這些音樂,可以聽上千年。
2個(gè)機(jī)柜
1EB,需要大約2000個(gè)機(jī)柜的存儲(chǔ)設(shè)備。如果并排放這些機(jī)柜,可以連綿1.2公里那么長。如果擺放在機(jī)房里,需要21個(gè)標(biāo)準(zhǔn)籃球場那么大的機(jī)房,才能放得下。
21個(gè)籃球場
阿里、百度、騰訊這樣的互聯(lián)網(wǎng)巨頭,數(shù)據(jù)量據(jù)說已經(jīng)接近EB級(jí)。
阿里數(shù)據(jù)中心內(nèi)景
EB還不是最大的。目前全人類的數(shù)據(jù)量,是ZB級(jí)。
1 ZB = 1024 EB (ZB - zettabyte)
2011年,全球被創(chuàng)建和復(fù)制的數(shù)據(jù)總量是1.8ZB。
而到2020年,全球電子設(shè)備存儲(chǔ)的數(shù)據(jù),將達(dá)到35ZB。如果建一個(gè)機(jī)房來存儲(chǔ)這些數(shù)據(jù),那么,這個(gè)機(jī)房的面積將比42個(gè)鳥巢體育場還大。
數(shù)據(jù)量不僅大,增長還很快——每年增長50%。
目前的大數(shù)據(jù)應(yīng)用,還沒有達(dá)到ZB級(jí),主要集中在PB/EB級(jí)別。
大數(shù)據(jù)的級(jí)別定位
1 KB = 1024 B (KB - kilobyte)
1 MB = 1024 KB (MB - megabyte)
1 GB = 1024 MB (GB - gigabyte)
1 TB = 1024 GB (TB - terabyte)
1 ZB = 1024 EB (ZB - zettabyte)
數(shù)據(jù)的來源
數(shù)據(jù)的增長,為什么會(huì)如此之快?
說到這里,就要回顧一下人類社會(huì)數(shù)據(jù)產(chǎn)生的幾個(gè)重要階段。
大致來說,是三個(gè)重要的階段。
第一個(gè)階段,就是計(jì)算機(jī)被發(fā)明之后的階段。尤其是數(shù)據(jù)庫被發(fā)明之后,使得數(shù)據(jù)管理的復(fù)雜度大大降低。各行各業(yè)開始產(chǎn)生了數(shù)據(jù),從而被記錄在數(shù)據(jù)庫中。這時(shí)的數(shù)據(jù),以結(jié)構(gòu)化數(shù)據(jù)為主(待會(huì)解釋什么是“結(jié)構(gòu)化數(shù)據(jù)”)。數(shù)據(jù)的產(chǎn)生方式,也是被動(dòng)的。
世界上第一臺(tái)通用計(jì)算機(jī)-ENIAC
第二個(gè)階段,是伴隨著互聯(lián)網(wǎng)2.0時(shí)代出現(xiàn)的?;ヂ?lián)網(wǎng)2.0的最重要標(biāo)志,就是用戶原創(chuàng)內(nèi)容。隨著互聯(lián)網(wǎng)和移動(dòng)通信設(shè)備的普及,人們開始使用博客、facebook、youtube這樣的社交網(wǎng)絡(luò),從而主動(dòng)產(chǎn)生了大量的數(shù)據(jù)。
第三個(gè)階段,是感知式系統(tǒng)階段。隨著物聯(lián)網(wǎng)的發(fā)展,各種各樣的感知層節(jié)點(diǎn)開始自動(dòng)產(chǎn)生大量的數(shù)據(jù),例如遍布世界各個(gè)角落的傳感器、攝像頭。
經(jīng)過了“被動(dòng)-主動(dòng)-自動(dòng)”這三個(gè)階段的發(fā)展,最終導(dǎo)致了人類數(shù)據(jù)總量的極速膨脹。
大數(shù)據(jù)的4Vs
行業(yè)里對(duì)大數(shù)據(jù)的特點(diǎn),概括為4個(gè)V。前面所說的龐大數(shù)據(jù)體量,就是Volume(海量化)。除了Volume之外,剩下三個(gè),分別是Variety、Velocity、Value。
我們一個(gè)一個(gè)來介紹。
Variety(多樣化)
數(shù)據(jù)的形式是多種多樣的,包括數(shù)字(價(jià)格、交易數(shù)據(jù)、體重、人數(shù)等)、文本(郵件、網(wǎng)頁等)、圖像、音頻、視頻、位置信息(經(jīng)緯度、海拔等),等等,都是數(shù)據(jù)。
數(shù)據(jù)又分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。
從名字可以看出,結(jié)構(gòu)化數(shù)據(jù),是指可以用預(yù)先定義的數(shù)據(jù)模型表述,或者,可以存入關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)。
結(jié)構(gòu)化數(shù)據(jù)
例如,一個(gè)班級(jí)所有人的年齡、一個(gè)超市所有商品的價(jià)格,這些都是結(jié)構(gòu)化數(shù)據(jù)。
而網(wǎng)頁文章、郵件內(nèi)容、圖像、音頻、視頻等,都屬于非結(jié)構(gòu)話數(shù)據(jù)。
在互聯(lián)網(wǎng)領(lǐng)域里,非結(jié)構(gòu)化數(shù)據(jù)的占比已經(jīng)超過整個(gè)數(shù)據(jù)量的80%。
大數(shù)據(jù),就符合這樣的特點(diǎn):數(shù)據(jù)形式多樣化,且非結(jié)構(gòu)化數(shù)據(jù)占比高。
Velocity(時(shí)效性)
大數(shù)據(jù)還有一個(gè)特點(diǎn),那就是時(shí)效性。從數(shù)據(jù)的生成到消耗,時(shí)間窗口非常小。數(shù)據(jù)的變化速率,還有處理過程,越來越快。例如變化速率,從以前的按天變化,變成現(xiàn)在的按秒甚至毫秒變化。
我們還是用數(shù)字來說話:
就在剛剛過去的這一分鐘,數(shù)據(jù)世界里發(fā)生了什么?
Email:2.04億封被發(fā)出
Google:200萬次搜索請(qǐng)求被提交
Youtube:2880分鐘的視頻被上傳
Facebook:69.5萬條狀態(tài)被更新
Twitter:98000條推送被發(fā)出
12306:1840張車票被賣出
……
怎么樣?是不是瞬息萬變?
Value(價(jià)值密度)
最后一個(gè)特點(diǎn),就是價(jià)值密度。
大數(shù)據(jù)的數(shù)據(jù)量很大,但隨之帶來的,就是價(jià)值密度很低,數(shù)據(jù)中真正有價(jià)值的,只是其中的很少一部分。
例如通過監(jiān)控視頻尋找犯罪分子的相貌,也許幾TB的視頻文件,真正有價(jià)值的,只有幾秒鐘。